Python爬虫案例3：爬取房天下房价等各种信息

最新推荐文章于 2024-08-31 22:00:16 发布

乐想屋

最新推荐文章于 2024-08-31 22:00:16 发布

阅读量1.6w

点赞数 8

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PbGc396Dwxjb77F2je/article/details/79832022

版权

该博客介绍了一个Python爬虫项目，用于抓取房天下的房价及相关信息，包括区域、小区名、价格等，并将数据保存到CSV文件。博主详细讲解了创建Scrapy项目、编写爬虫程序、修改items.py、pipelines.py和settings.py的过程，以及如何控制爬虫的深度和防止IP被封。最后，提供了程序运行结果和相关资源链接。

摘要由CSDN通过智能技术生成

爬取房天下网站，爬取的内容：

区域、小区名、总价、房型、面积、单价、朝向、楼层位置、装修情况、建筑时间、是否有电梯、产权类型、住宅类型、发布日期

信息保存：保存在csv中

数据结果：

1、先建立爬虫项目

1）进入目标目录：cd 目标目录

2）建立项目：scrapy startproject 爬虫项目名称

3）进入爬虫项目目录，cd 爬虫项目所在的文件夹

4）建立爬虫：scrapy genspider 爬虫名称网址

具体可参考豆瓣的爬虫博文。

2、编写爬虫程序

有五个注意和修改的地方：

1）编写spider程序，我的案例是spider的price.py的文件中

2）修改items.py

3）修改pipeline.py，并需要在settings.py中导入

4）编写运行爬虫的程序，我的是runspider.py

5）对应的修改settings.py：pipline类、设置DEPTH_LIMIT

完整的项目目录如下：

最低0.47元/天解锁文章

关注

8
点赞
踩
32

收藏

觉得还不错? 一键收藏
28
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 28

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。